Neteja de dades

La neteja de dades (en anglès data cleaning o data scrubbing) és l'acció de descobriment, de correcció o d'eliminació de registres de dades errònies d'una taula o d'una base de dades. Aquest procés de neteja permet identificar dades incompletes, incorrectes, inexactes, no pertinents, etc. i després substituir, modificar o eliminar completament aquestes dades brutes. Després d'aquesta neteja, la base de dades podrà ser compatible amb altres bases de dades similars d'un sistema.

Inici i final d'un procés de neteja de dades.
Inici i final d'un procés de neteja de dades.

Aquest procés és una part crucial de l'anàlisi de dades, especialment quan es recopilen dades quantitatives.

Les inconsistències descobertes, modificades o eliminades en un conjunt de dades, poden ser causades per definicions de diccionari diferents d'entitats similars, els errors d'entrada de l'usuari o la corrupció en el moment de la transmissió o l'emmagatzematge.

La neteja de dades es diferencia de la validació de dades en el fet que, gairebé sempre, compleix la funció de rebutjar els registres erronis durant l'entrada al sistema, i no en lots de data. L'objectiu de la neteja de dades és assolir dades de qualitat i organitzades de forma eficient.


Developed by StudentB